Forwarded from Machinelearning
MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.
MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.
При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.
Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.
В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:
⚠️ Согласно обсуждению в
issues
репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone
# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone
pip install -e .
# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt
# Launch the demo
python app.py
@ai_machinelearning_big_data
#AI #ML #VideoMatte #MatAnyone
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👨🎓 Новый конкурс по анализу данных от Stanford RNA 3D Folding на Kaggle
На Kaggle вышло новое соревнование — Stanford RNA 3D Folding, которое с задачей: предсказать трёхмерную конфигурацию РНК-молекул.
Почему это важно?
РНК играет ключевую роль в регуляции генетической информации, а точное знание её пространственной структуры имеет огромное значение для понимания биологических процессов, разработки новых лекарств и даже борьбы с инфекционными заболеваниями.
Несмотря на успехи в предсказании белковых структур (например, благодаря AlphaFold), предсказание 3D-конформации РНК остаётся одной из самых сложных задач в современной молекулярной биологии.
Суть соревнования:
Участникам предлагается разработать алгоритмы, способные эффективно моделировать и предсказывать трёхмерную структуру РНК, используя предоставленные наборы данных и экспериментальные результаты. В основе задачи лежит необходимость учитывать как вторичную структуру (базовое парование нуклеотидов), так и сложные третичные взаимодействия, которые определяют окончательную форму молекулы.
💰 Призовой фонд: $75,000
Что получает участник?
Предсказания 3D-конформаций РНК может значительно ускорить разработку новых терапевтических средств и методов лечения. Успешные модели могут стать фундаментом для дальнейших исследований в генетике, синтезе лекарственных препаратов и изучении сложных биологических процессов. Кроме того, участие в таком соревновании предоставляет уникальную возможность обмена знаниями и сотрудничества с ведущими экспертами в данной области.
https://kaggle.com/competitions/stanford-rna-3d-folding
На Kaggle вышло новое соревнование — Stanford RNA 3D Folding, которое с задачей: предсказать трёхмерную конфигурацию РНК-молекул.
Почему это важно?
РНК играет ключевую роль в регуляции генетической информации, а точное знание её пространственной структуры имеет огромное значение для понимания биологических процессов, разработки новых лекарств и даже борьбы с инфекционными заболеваниями.
Несмотря на успехи в предсказании белковых структур (например, благодаря AlphaFold), предсказание 3D-конформации РНК остаётся одной из самых сложных задач в современной молекулярной биологии.
Суть соревнования:
Участникам предлагается разработать алгоритмы, способные эффективно моделировать и предсказывать трёхмерную структуру РНК, используя предоставленные наборы данных и экспериментальные результаты. В основе задачи лежит необходимость учитывать как вторичную структуру (базовое парование нуклеотидов), так и сложные третичные взаимодействия, которые определяют окончательную форму молекулы.
💰 Призовой фонд: $75,000
Что получает участник?
Предсказания 3D-конформаций РНК может значительно ускорить разработку новых терапевтических средств и методов лечения. Успешные модели могут стать фундаментом для дальнейших исследований в генетике, синтезе лекарственных препаратов и изучении сложных биологических процессов. Кроме того, участие в таком соревновании предоставляет уникальную возможность обмена знаниями и сотрудничества с ведущими экспертами в данной области.
https://kaggle.com/competitions/stanford-rna-3d-folding
Forwarded from Machinelearning
MASi3R-SLAM - проект, который умеет строить детальные 3D-карты окружающей среды и отслеживать движение камеры в реальном времени без предварительной калибровки. Система работает даже с изменяющимися во аремени параметрами, например, при зумировании или оптических искажениях.
Основа MASi3R-SLAM - алгоритм, использующий модели DUSi3R и MASi3R для восстановления геометрии сцены по 2 изображениям. DUSi3R анализирует пары изображений, предсказывая детальные карты 3D-точек в общей системе координат, а MASi3R дополнительно генерирует дескрипторы для каждого пикселя, повышая точность сопоставления даже при большом смещении кадров.
Полученные данные от моделей обрабатывает уникальный алгоритм, который анализирует «карты точек», прогнозируемые нейросетью, и находит соответствия между кадрами за 2 миллисекунды, что в 40 раз быстрее аналогов.
В тестировании на наборах TUM RGB-D и EuRoC, показали: MASi3R-SLAM превосходит DROID-SLAM и другие системы по точности траектории (средняя ошибка — 3 см) и детальности 3D-моделей.
На сегодняшний день основное ограничение MASi3R-SLAM — скорость декодера из-за его вычислительной нагрузки: полный цикл обработки одного ключевого кадра занимает в среднем 26–27 миллисекунд, что примерно 64% общего времени работы паплайна.
Например, при разрешении 512 пикселей по длинной стороне декодер MASi3R тратит до 2 секунд на глобальный поиск соответствий, тогда как алгоритм сопоставления сокращает это время до 2 мс. На выходе создается «бутылочное горлышко», которое ограничивает частоту кадров до 15 FPS.
⚠️ Перед установкой необходимо загрузить модели и установить версию Pytorch, соответствующую установленной версии CUDA.
# Create Conda env
conda create -n mast3r-slam python=3.11
conda activate mast3r-slam
# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/
# Install dependencies
pip install -e thirdparty/mast3r
pip install -e thirdparty/in3d
pip install --no-build-isolation -e .
# Launch Live demo with camera
python main.py --dataset realsense --config config/base.yaml
# Or running on a MP4 video
python main.py --dataset <path/to/video>.mp4 --config config/base.yaml
python main.py --dataset <path/to/folder> --config config/base.yaml
@ai_machinelearning_big_data
#AI #ML #CV #3D #SLAM #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔ Разбор задач с собеседований по статистике для Дата Саентистов
В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.
В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.
📌 Читать
@machinelearning_interview
В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.
В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.
📌 Читать
@machinelearning_interview
🤗 Обновленный Курс от Hugging Face – Reasoning Course это подробное руководство по развитию навыков логического рассуждения и применения современных подходов для улучшения работы языковых моделей
Это интерактивное обучение, посвящённое пониманию и применению методов chain-of-thought (цепочки рассуждений) для генеративных моделей.
Курс сочетает теоретические основы с практическими примерами и заданиями.
Чем он полезен:
- Позволяет глубже понять, как LLM структурируют свои мысли для генерации более точных и обоснованных ответов.
- Обучает методикам, которые помогают улучшить рассуждения модели при решении сложных задач.
- Содержит практические упражнения и интерактивные ноутбуки, что делает материал доступным как для начинающих, так и для опытных специалистов.
Что нового в курсе:
Обновлённый контент: В курс добавлены новые примеры, кейсы из реальной практики и последние достижения в области chain-of-thought prompting.
Интеграция с экосистемой Hugging Face: Возможность сразу экспериментировать с моделями и инструментами прямо из курса.
Если вы хотите улучшить свои навыки работы с языковыми моделями и научиться добиваться более глубокого и логичного генеративного вывода – этот курс для вас!
- Зарегистрируйтесь:
- Каждую неделю авторы будут выпускать новые материалы и упражнения:
- За прохождение выдаются сертификаты.
https://huggingface.co/reasoning-course
@machinelearning_interview
Это интерактивное обучение, посвящённое пониманию и применению методов chain-of-thought (цепочки рассуждений) для генеративных моделей.
Курс сочетает теоретические основы с практическими примерами и заданиями.
Чем он полезен:
- Позволяет глубже понять, как LLM структурируют свои мысли для генерации более точных и обоснованных ответов.
- Обучает методикам, которые помогают улучшить рассуждения модели при решении сложных задач.
- Содержит практические упражнения и интерактивные ноутбуки, что делает материал доступным как для начинающих, так и для опытных специалистов.
Что нового в курсе:
Обновлённый контент: В курс добавлены новые примеры, кейсы из реальной практики и последние достижения в области chain-of-thought prompting.
Интеграция с экосистемой Hugging Face: Возможность сразу экспериментировать с моделями и инструментами прямо из курса.
Если вы хотите улучшить свои навыки работы с языковыми моделями и научиться добиваться более глубокого и логичного генеративного вывода – этот курс для вас!
- Зарегистрируйтесь:
- Каждую неделю авторы будут выпускать новые материалы и упражнения:
- За прохождение выдаются сертификаты.
https://huggingface.co/reasoning-course
@machinelearning_interview
Media is too big
VIEW IN TELEGRAM
🔥 MIT обновил свой знаменитый курс 6.S191: Introduction to Deep Learning.
Программа охватывает темы NLP, CV, LLM и применение технологий в медицине, предлагая полный цикл обучения – от теории до практических занятий с использованием актуальных версий библиотек.
Курс рассчитан даже на новичков: если вы умеете брать производные и перемножать матрицы, все остальное будет разъяснено в процессе.
Лекции выходят бесплатно на YouTube и на платформе MIT по понедельникам, первая уже доступна.
Все слайды, код и дополнительные материалы можно найти по указанной ссылке.
📌 Свежая лекция: https://youtu.be/alfdI7S6wCY?si=6682DD2LlFwmghew
Разбор мл-собеседований
@machinelearning_interview
Программа охватывает темы NLP, CV, LLM и применение технологий в медицине, предлагая полный цикл обучения – от теории до практических занятий с использованием актуальных версий библиотек.
Курс рассчитан даже на новичков: если вы умеете брать производные и перемножать матрицы, все остальное будет разъяснено в процессе.
Лекции выходят бесплатно на YouTube и на платформе MIT по понедельникам, первая уже доступна.
Все слайды, код и дополнительные материалы можно найти по указанной ссылке.
📌 Свежая лекция: https://youtu.be/alfdI7S6wCY?si=6682DD2LlFwmghew
Разбор мл-собеседований
@machinelearning_interview
800+ SQL Server Interview Questions and Answers .pdf
1 MB
Он также включает задачи для самостоятельной работы и множество примеров.
Сборник отлично подходит для тех, кто хочет прокачать свои навыки работы с SQL, освежить знания и проверить свои знания.
▪ GitHub
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Набор интерактивных упражнений («паззлов») для обучения программированию под GPU с использованием CUDA.
Это целая серия задач, где требуется написать небольшие CUDA-ядра (ядра GPU), реализующие операции вроде сложения с константой (map), поэлементного суммирования (zip), работы с блоками и потоками, свёртки, матричного умножения и других параллельных алгоритмов.
Основная цель репозитория – дать начинающим возможность непосредственно попрактиковаться в программировании под GPU, без необходимости погружаться в сложную документацию.
Для удобства рекомендуется запускать задания в Google Colab с включённым режимом GPU.
Репозиторий лицензирован по MIT, имеет высокую популярность (более 10 тыс звёзд) и является частью серии обучающих проектов (наряду с
Tensor Puzzles, Autodiff Puzzles, Triton Puzzles
и другими).А здесь реализация задач на C++
▪ Github
▪ Colab
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Distill-Any-Depth - метод обучения моделей монокулярной оценки глубины, который сочетает кросс-контекстную дистилляцию и мульти-учительский подход для точного определения расстояния до объектов на RGB-изображении. Он предназначен для обучения моделей (например, DPT, MiDaS или DepthAnythingv2), которые учатся на псевдо-метках, сгенерированных учительскими моделями (Genpercept, DepthAnythingv2).
Метод не просто улучшает существующие алгоритмы, но и задает новый стандарт в области определения глубины. Методика может применяться в сфере автономного транспорта и AR-решений. Она может ускорить создание точных 3D-карт для навигации и улучшить реалистичность виртуальных миров за счет детализированного анализа пространства. При этом, обучение CV-моделей с Distill-Any-Depth довольно энергоэффективно — достаточно одной NVIDIA V100.
Основа Distill-Any-Depth - кросс-контекстная дистилляция, объединяющая 2 сценария:
Shared-Context Distillation
— модель-учитель и модель-ученик обучаются на одинаковых фрагментах изображения.Local-Global Distillation
— модель-учитель анализирует локальные фрагменты, а модель-ученик предсказывает глубину для всего изображения, отвечая за глобальную согласованность сцены.Экспериментальная модель обучалась на 50 тыс. изображений из SA-1B с разрешением 560×560. Использовались псевдо-метки от Genpercept (диффузионная модель) и DepthAnythingv2 (DINOv2). В рамках мульти-учительского подхода на каждой итерации случайно выбирался один учитель.
На тестах DIODE и ETH3D метод сократил значение AbsRel на 9.6–20% по сравнению с базовой дистилляцией. Например, при обучении модели-ученика DPT с учителями Genpercept и DepthAnythingv2 AbsRel на ETH3D составил 0.065 против 0.096 у Genpercept.
На бенчмарках NYUv2, KITTI, ScanNet модель достигла SOTA: AbsRel 0.043 (NYUv2), 0.070 (KITTI), 0.042 (ScanNet). В сравнении с DepthAnything v2 (AbsRel: 0.045 на NYUv2) и Marigold (0.055) Distill-Any-Depth показал более высокую детализацию и точность относительной глубины.
# Create Conda env
conda create -n distill-any-depth -y python=3.10
conda activate distill-any-depth
# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/
# Install dependencies
pip install -r requirements.txt
pip install -e .
# If use hf_hub_download, you can use the following code
checkpoint_path = hf_hub_download(repo_id=f"xingyang1/Distill-Any-Depth", filename=f"large/model.safetensors", repo_type="model")
# Launch Gradio demo
python app.py
@ai_machinelearning_big_data
#AI #ML #Depth #DIstillAnyDepth
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ANUS (Autonomous Networked Utility System) — опенсорсную версию популярного Manus, который клонировал самого себя 😂
• Как это получилось:
• Разработчик попросил мощного ИИ-агента Manus скопировать себя, и всего за 25 минут получился код, архитектура и дизайн, полностью идентичные оригиналу.
• Что получилось:
• Идеальная нейросеть, которой можно доверить всю рутинную работу, и всё это — абсолютно бесплатно.
GItHub
• Как это получилось:
• Разработчик попросил мощного ИИ-агента Manus скопировать себя, и всего за 25 минут получился код, архитектура и дизайн, полностью идентичные оригиналу.
• Что получилось:
• Идеальная нейросеть, которой можно доверить всю рутинную работу, и всё это — абсолютно бесплатно.
GItHub